웹마스터 팁

짜짠!! 드디어 대망의 10강입니다. 많이 왔네요. *^^* 조만간 어느정도 단란이 완성되고 나면 강의 자료를 모은 chm 형식의 윈도우즈 도움말도 배포할 생각입니다. 현재 9강의 내용까지는 다 만들어 두었습니다.

우선 정규식의 패턴을 살펴보자면 "/정규식 패턴정의/문법구분자"의 형태로 볼 수 있습니다. 저 중에서 슬래시(/)는 일반적으로 쓰이는 구획문자이기는 하지만 반드시 슬래시일 이유는 없습니다. ":정규식 패턴:구분자"의 형태나 "|정규식 패턴|구분자"의 형태가 모두 가능합니다. 정규식을 정의하는 첫 문자를 구획문자로 사용하게 됩니다. 단, 강의중에는 슬래시만 사용합니다. 구분자는 생략할 수도 있는 부분이며 정규식 패턴을 보조하고 성격을 규정해주는 역할을 합니다.

참고구획문자라고 번역한 부분의 원어는 delimiter로 "구획을 구분해주는 문자"라는 의미가 있습니다. kldp.org 의 PHP 매뉴얼 번역에 따른 것입니다.

PHP매뉴얼에 보시면 일반적인 정규식의 몇가지 유형을 볼 수 있습니다.
# /</w+>/
# |(d{3})-d+|Sm
# /^(?i)php[34]/
# {^s+(s+)?$}

올바르지 않은 정규식의 패턴 또한 볼 수 있습니다. 더군다나 이 부분은 한글 매뉴얼에도 해석이 제대로 안되어 있는 부분이라서, 공부하기가 좀 까다로우실 겁니다.

# /href='(.*)' - 구획문자의 종료가 되지 않았습니다. 슬래시(/)로 시작했으면 반드시 슬래시(/)로 끝을 맺어야 합니다.
# /w+s*w+/J - J라는 구분자는 없습니다.
# 1-d3-d3-d4| - 구획문자의 시작이 없습니다. 종료는 파이프(|)로 했지만 시작을 하지 않았습니다.

그럼 이번에는 구분자의 종류에 관해서 보도록 합니다. PHP Manual 에는 Pattern Modifiers 라는 이름으로 존재하는 단락입니다. 이 중에서 자주 쓰이는 몇 가지에 대해서만 설명해드립니다. 눈으로 훑어두시기만 하고 그 다음부분에서 사용예를 볼 때 부지런히 오며가며 보도록 하는 것이 좋습니다.

패턴 구분자
i - 패턴의 대소문자 구분을 하지 않습니다.
m - 기본적으로 정규식의 대상이 되는 문자열은 중간에 개행문자(= newline문자, 흔히 엔터문자라고도 합니다)가 들어가더라도 한줄로 취급합니다. 그래서 줄 시작을 나타내는 메타문자(^)는 대상 문자열의 시작을 의미하고, 줄 끝을 나타내는 메타문자($)는 대상 문자열의 끝을 의미하고(줄의 시작과 끝이 아니라 대상 문자열의 시작과 끝임을 명심하세요!!), D옵션이 설정되어 있지 않으면 개행문자 바로 앞을 의미합니다. 메타문자($)에 대해서 다시 얘기하자면, 대상 문자열의 마지막이 개행문자일 수도 있는데 이 경우 메타문자($)는 개행문자 바로 앞을 의미한다는 말입니다.
그러나 m옵션이 설정되면, 메타문자(^)과 메타문자($)는 각각 한 줄의 시작과 끝을 의미합니다. 즉 각각의 개행문자 바로 앞까지를 한 줄로 인식하고 메타문자(^)와 메타문자($)를 각각의 끝에 매칭시킨다는 말입니다. 자세한 내용은 사용하면서 알아가도록 합니다.
s - 이 옵션을 설정하면 메타문자(.)에 개행문자도 포함됩니다. 설정되어있지 않다면 도트의 범위는 한줄이내입니다.
D - 이 옵션이 설정되어 있으면, 메타문자($)는 설령 마지막 문자가 개행문자라 하더라도 대상 문자열의 마지막과 항상 매칭됩니다.
U - 영문 해석도 안되고, 한글로 해석해놓은 걸 봐도 이해가 안되기는 마찬가지입니다. 제 경험에 의하면, 정규식의 일치는 기본적으로 가장 큰 범위에 있는 것을 지정합니다. 예를 들어, , 그리고 그 사이의 내용을 찾아내는 정규식이 있다고 하면 가장 처음 나오는 와 가장 마지막에 나오는 를 찾았다고 매치시킵니다. 버뜨... 이 구분자를 설정하면 가장 좁은 범위의 패턴을 찾습니다.

패턴 문법
패턴 문법에 들어가기 전에 매뉴얼에 Difference from Perl 이라는 부분이 있는데 만약 펄을 배웠거나 배우실 예정이라면 꼭 읽어보고 넘어가시기를 바랍니다. 물론... 영문입니다. 절대로 해석하기 싫어서 그런건 아닙니다. ㅡ_ㅡㆀ

정규식 패턴내에서 특별한 역할을 하는 문자들이 있는데 이런 문자들을 메타문자라고 합니다. 비단, 정규식뿐만 아니라 함수나 변수 등에서 특별한 역할을 하는 문자들 모두를 메타문자라고 합니다. 정규식의 메타문자는 다음과 같습니다.

(역슬래시) - 여러 용도로 사용한 이스케이프 문자입니다. 여태까지의 강의로 대충 어떤 용도로 사용되는지는 아시죠?
^ (써큠플렉스, 꺽쇠로 통합니다) - 대상 문자열의 시작, 혹은 줄의 시작(이런 기능이 뭐로 나누어지는 위에서 보셨죠?)
$ (달러기호) - 대상 문자열의 끝, 혹은 줄의 끝
. (도트, 점) - 기본적으로는, 개행문자를 제외한 모든 문자(이것도 어떤 구분자에 의해서 나누어지는지 보셨죠?)
[, ] (대괄호) - 허용 혹은 비허용 문자 범위를 지정합니다.
{, } (중괄호) - 바로 앞 패턴의 갯수를 지정합니다.
(, ) (소괄호) -  서브패턴을 지정합니다.
? (퀘스쳔 마크, 물음표) - 바로 앞 패턴에 대해 있거나/없다 를 의미합니다.
* 바로 앞 패턴에 대해 없거나/여러개를 의미합니다.
+ 바로 앞 패턴에 대해 1개 이상을 의미합니다.
| 정규식 패턴의 "또는, OR"을 의미합니다.

이 중 대괄호는 문자 범위를 지정하는데 예를 들어 "a"나 "b"나 "c"를 의미하는 것이라면 [abc] 와 같이 사용할 수 있습니다. 혹은 [a-z] 와 같이 -로 처음과 끝을 이어줌으로써 범위를 지정할 수도 있습니다. 문자를 지정하는 것이기 때문에 이 안에서 몇몇 메타문자들은 메타문자로서의 효력을 잃고 일반문자처럼 취급됩니다. 아래는 대괄호 [] 안에서도 메타문자로 인정되는 문자입니다.

(역슬래시), ^(써큠플렉스), ](대괄호 닫기)
그리고, -(하이픈 혹은 마이너스 기호) 가 있는데 이것은 위에서 말한바와 같이 문자의 범위를 지정합니다.

문자열 변수를 배울 때 이미 익힌 것 중 r, n, t, xhh(16진수), ddd(8진수) 는 정규식에서도 그대로 적용됩니다. 문자열 변수할 때 착실히 하신 분이라면 지금 다시 공부하지 않아도 되리라 봅니다. 그 이외에 a, cx, e, f 의 용법은 나중에 쓸일이 있으면 배우세요. 단언컨데, 일반적인 웹페이지를 다룰 때는 별 필요가 없는 것들입니다. 따라서, 넘어갑니다. ^^;;

자자... 설명이 길었습니다. 기본원리를 설명한다는 것은 어려울 뿐만 아니라 몹시 재미없는 일이네요. 실전으로 익히면서 배워보도록 합시다. 그러면 이해는 못해도 정규식을 쓰게 되는 기이한 현상이 발생할 수도 있습니다.

P.S//일단 여기까지만 올리고 오늘이 가기전에 다시 실전예제를 올릴께요. 일이 생겨서... ㅠ_ㅠ
원래 한번에 실전까지 하려고 했는데 아쉽게도... 떱...